智能论文笔记

MIRA: Mental Imagery for Robotic Affordances

Lin Yen-Chen , Pete Florence , Andy Zeng , Jonathan T. Barron , Yilun Du , Wei-Chiu Ma , Anthony Simeonov , Alberto Rodriguez Garcia , Phillip Isola

分类：机器人

2022-12-12

Humans form mental images of 3D scenes to support counterfactual imagination, planning, and motor control. Our abilities to predict the appearance and affordance of the scene from previously unobserved viewpoints aid us in performing manipulation tasks (e.g., 6-DoF kitting) with a level of ease that is currently out of reach for existing robot learning frameworks. In this work, we aim to build artificial systems that can analogously plan actions on top of imagined images. To this end, we introduce Mental Imagery for Robotic Affordances (MIRA), an action reasoning framework that optimizes actions with novel-view synthesis and affordance prediction in the loop. Given a set of 2D RGB images, MIRA builds a consistent 3D scene representation, through which we synthesize novel orthographic views amenable to pixel-wise affordances prediction for action optimization. We illustrate how this optimization process enables us to generalize to unseen out-of-plane rotations for 6-DoF robotic manipulation tasks given a limited number of demonstrations, paving the way toward machines that autonomously learn to understand the world around them for planning actions.

translated by 谷歌翻译

HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video

Chung-Yi Weng , Brian Curless , Pratul P. Srinivasan , Jonathan T. Barron , Ira Kemelmacher-Shlizerman

分类：计算机视觉

2022-01-11

我们介绍了一个自由视的渲染方法 - Humannerf - 这对人类进行了复杂的身体运动的给定单曲视频工作，例如，来自YouTube的视频。我们的方法可以在任何帧中暂停视频，并从任意新相机视点呈现对象，甚至是该特定帧和身体姿势的完整360度摄像机路径。这项任务特别具有挑战性，因为它需要合成身体的光电型细节，如从输入视频中可能不存在的各种相机角度所见，以及合成布折叠和面部外观的细细节。我们的方法优化了在规范T型姿势中的人的体积表示，同时通过运动场，该运动场通过向后的警报将估计的规范表示映射到视频的每个帧。运动场分解成骨骼刚性和非刚性运动，由深网络产生。我们对现有工作显示出显着的性能改进，以及从移动人类的单眼视频的令人尖锐的观点渲染的阐释示例，以挑战不受控制的捕获场景。

translated by 谷歌翻译

Squareplus: A Softplus-Like Algebraic Rectifier

Jonathan T. Barron

分类：机器学习 | 神经与进化计算

2021-12-22

我们呈现SquarePlus，一种类似于SoftPlus的激活功能，但可以仅使用代数操作来计算：添加，乘法和方源根。由于SquarePlus比SoftPlus更快地〜6倍，因为CPU上的SoftPlus更快，并且不需要访问超越功能，因此可能具有在资源限制的深度学习应用中具有实用价值。

translated by 谷歌翻译

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

Dor Verbin , Peter Hedman , Ben Mildenhall , Todd Zickler , Jonathan T. Barron , Pratul P. Srinivasan

分类：计算机视觉

2021-12-07

神经辐射场（NERF）是一种普遍的视图综合技术，其表示作为连续体积函数的场景，由多层的感知来参数化，其提供每个位置处的体积密度和视图相关的发射辐射。虽然基于NERF的技术在代表精细的几何结构时，具有平稳变化的视图依赖性外观，但它们通常无法精确地捕获和再现光泽表面的外观。我们通过引入Ref-nerf来解决这些限制，该ref-nerf替换了nerf的视图依赖性输出辐射的参数化，使用反射辐射的表示和使用空间不同场景属性的集合来构造该函数的表示。我们展示了与正常载体上的规范器一起，我们的模型显着提高了镜面反射的现实主义和准确性。此外，我们表明我们的模型的外向光线的内部表示是可解释的，可用于场景编辑。

translated by 谷歌翻译

Dense Depth Priors for Neural Radiance Fields from Sparse Input Views

Barbara Roessle , Jonathan T. Barron , Ben Mildenhall , Pratul P. Srinivasan , Matthias Nießner

分类：计算机视觉

2021-12-06

神经辐射字段（NERF）将场景编码为神经表示，使得能够实现新颖视图的照片逼真。然而，RGB图像的成功重建需要在静态条件下拍摄的大量输入视图 - 通常可以为房间尺寸场景的几百个图像。我们的方法旨在将整个房间的小说视图从数量级的图像中合成。为此，我们利用密集的深度前导者来限制NERF优化。首先，我们利用从用于估计相机姿势的运动（SFM）预处理步骤的结构自由提供的稀疏深度数据。其次，我们使用深度完成将这些稀疏点转换为密集的深度图和不确定性估计，用于指导NERF优化。我们的方法使数据有效的新颖观看综合在挑战室内场景中，使用少量为整个场景的18张图像。

translated by 谷歌翻译

Zero-Shot Text-Guided Object Generation with Dream Fields

Ajay Jain , Ben Mildenhall , Jonathan T. Barron , Pieter Abbeel , Ben Poole

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-02

我们将神经渲染与多模态图像和文本表示相结合，以仅从自然语言描述中综合不同的3D对象。我们的方法，梦场，可以产生多种物体的几何和颜色而无需3D监控。由于不同，标题3D数据的稀缺性，先前的方法仅生成来自少数类别的对象，例如ShapEnet。相反，我们指导生成与从Web的标题图像的大型数据集预先培训的图像文本模型。我们的方法优化了许多相机视图的神经辐射场，使得根据预先训练的剪辑模型，渲染图像非常高度地使用目标字幕。为了提高保真度和视觉质量，我们引入简单的几何前瞻，包括突出透射率正则化，场景界限和新的MLP架构。在实验中，梦场从各种自然语言标题中产生现实，多视图一致的物体几何和颜色。

translated by 谷歌翻译

RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs

Michael Niemeyer , Jonathan T. Barron , Ben Mildenhall , Mehdi S. M. Sajjadi , Andreas Geiger , Noha Radwan

分类：计算机视觉 | 人工智能

2021-12-01

由于其简单性和最先进的性能，神经辐射场（NERF）被出现为新型视图综合任务的强大表示。虽然NERF可以在许多输入视图可用时产生看不见的观点的光静观渲染，但是当该数量减少时，其性能显着下降。我们观察到，稀疏输入方案中的大多数伪像是由估计场景几何中的错误引起的，并且在训练开始时通过不同的行为引起。我们通过规范从未观察的视点呈现的修补程序的几何和外观来解决这一点，并在训练期间退火光线采样空间。我们还使用规范化的流模型来规范未观察的视点的颜色。我们的车型不仅优于优化单个场景的其他方法，而是在许多情况下，还有条件模型，这些模型在大型多视图数据集上广泛预先培训。

translated by 谷歌翻译

Urban Radiance Fields

Konstantinos Rematas , Andrew Liu , Pratul P. Srinivasan , Jonathan T. Barron , Andrea Tagliasacchi , Thomas Funkhouser , Vittorio Ferrari

分类：计算机视觉

2021-11-29

这项工作的目标是通过扫描平台捕获的数据进行3D重建和新颖的观看综合，该平台在城市室外环境中常设世界映射（例如，街景）。给定一系列由摄像机和扫描仪通过室外场景的摄像机和扫描仪进行的序列，我们产生可以从中提取3D表面的模型，并且可以合成新颖的RGB图像。我们的方法扩展了神经辐射字段，已经证明了用于在受控设置中的小型场景中的逼真新颖的图像，用于利用异步捕获的LIDAR数据，用于寻址捕获图像之间的曝光变化，以及利用预测的图像分段来监督密度。在光线指向天空。这三个扩展中的每一个都在街道视图数据上的实验中提供了显着的性能改进。我们的系统产生最先进的3D表面重建，并与传统方法（例如〜Colmap）和最近的神经表示（例如〜MIP-NERF）相比，合成更高质量的新颖视图。

translated by 谷歌翻译

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

Ben Mildenhall , Peter Hedman , Ricardo Martin-Brualla , Pratul Srinivasan , Jonathan T. Barron

分类：计算机视觉

2021-11-26

神经辐射字段（NERF）是一种用于高质量新颖观看综合的技术从一系列姿势输入图像。与大多数视图合成方法一样，NERF使用TONEMAPPED的低动态范围（LDR）作为输入;这些图像已经通过流畅的相机管道处理，平滑细节，剪辑突出显示，并扭曲了原始传感器数据的简单噪声分布。我们修改NERF以直接在线性原始图像直接培训，保持场景的完整动态范围。通过从生成的NERF渲染原始输出图像，我们可以执行新颖的高动态范围（HDR）视图综合任务。除了改变相机的观点外，我们还可以在事实之后操纵焦点，曝光和调度率。虽然单个原始图像显然比后处理的原始图像显着更大，但我们表明NERF对原始噪声的零平均分布非常强大。当优化许多嘈杂的原始输入（25-200）时，NERF会产生一个场景表示，如此准确的，即其呈现的新颖视图优于在同一宽基线输入图像上运行的专用单个和多像深生物丹机。因此，我们调用Rawnerf的方法可以从近黑暗中捕获的极其嘈杂的图像中重建场景。

translated by 谷歌翻译

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields

Jonathan T. Barron , Ben Mildenhall , Dor Verbin , Pratul P. Srinivasan , Peter Hedman

分类：计算机视觉

2021-11-23

虽然神经辐射场（NERF）已经证明了令人印象深刻的视图合成结果对物体和小型空间区域的结果，但它们在“无界”场景上挣扎，其中相机可以在任何方向上点，并且内容在任何距离处都存在。在此设置中，现有的形式的类似形式模型通常会产生模糊或低分辨率渲染（由于附近和远处物体的不平衡细节和规模），慢慢训练，并且由于任务的固有歧义而可能表现出伪影从一小部分图像重建大场景。我们介绍了MIP-NERF（一个NERF变体，用于解决采样和混叠的NERF变体），其使用非线性场景参数化，在线蒸馏和基于新的失真的常规程序来克服无限性场景所呈现的挑战。我们的模型，我们将“MIP-NERF 360”为瞄准相机围绕一点旋转360度的瞄准场景，与MIP NERF相比将平均平方误差减少54％，并且能够产生逼真的合成视图和用于高度复杂，无限性的现实景区的详细深度图。

translated by 谷歌翻译